Najważniejsze spostrzeżenia

Wiek jest skorelowany ze śmiercią. Mężczyźni częściej umierają.

Najistotniejsze atrybuty skorelowane z tym, że chory przeżyje to:
    • albumin - główne białko występujące w osoczu krwi, stanowi 60% wszystkich zawartych w nim białek,
    • platelet_count - liczba płytek krwi,
    • monocytes - liczba monocytów,
    • prothrombin_activity - aktywność protrombiny czyli białka odpowiedzialnego za krzepnięcie krwii,
    • lymphocyte_count - liczba limfocytów,
    • x_lymphocyte - limfocyty typu X,
    • calcium - wapń.

Wysoki poziom wapnia w krwii nazywany jest hiperkalcemią, która może być następstwem przedawkowania witamin A oraz D. Obserwacja ta pokrywa się z wnioskami lekarzy, którzy sugerują suplementować witaminę D jako zwiększającą szanse na bezpieczne przejście choroby.

Najistotniejsze atrybuty skorelowane z tym, że chory umrze to:
    • prothrombin_time - czas protrombinowy jest wskaźnikiem określającym czas powstawania skrzepów,
    • neutrophils - rodzaj komórek układu odpornościowego, które stanowią 50-75% leukocytów,
    • urea - mocznik, organiczny związek chemiczny,
    • neutrophils_count - liczba neutrofili,
    • d_d_dimer - biaka powstające podczas rozkładu zakrzepów w organizmie,
    • lactate_dehydrogenase - enzym, który znajduje się w komórkach organizmu człowieka i bierze udział w przekształceniu glukozy, podwyższony poziom wynika z wydostania się enzymu na zewnątrz w momencie uszkodzenia komórki,
    • international_standard_ratio - standaryzowany współczynnik czasu protrombinowego (pierwsza kropka w tym podpunkcie),
    • high_sensitivity_c_reactive_protein - białko C-reaktywne, jest to czuły marker natężenia reakcji zapalnej organizmu.

Wśród wymienionych biomarkeórów mamy takie oznaczających rozpad komórek, problemy z krzepnięciem krwii oraz oznaczające stan zapalny organizmu.

Zebrane dane umożliwiaja stworzenie dzialajacego skutecznie klasyfikatora.

Podsumowanie danych

Dane zostały zebrane między 10 stycznia a 18 lutego 2020 roku i obejmują informacje o wynikach badań krwi pacjentów przyjętych do szpitala Tongji w Wuhan w Chinach. Sposób zbierania danych oraz podstawowe statystyki zbioru opisane są w artykule Tan et al article. Celem przeprowadzonej analizy będzie zbadanie czynników wpływających na śmiertelność oraz stworzenie klasyfikatora przewidującego, czy dana osoba przeżyje, czy nie. Dane zawierają 82 kolumny z danymi dotyczącymi czasu, wieku, płci, danych próbek krwi i 6120 wierszy. Wiersze zawieraj wyniki poszczególnych badań krwi, czasami wiele wierszy dotyczy tej samej osoby. Dane zawierają informacje o 375 osobach chorych.

Podsumowanie statystyk danych pacjentów:

patient_id age gender admission_time discharge_time death days_in_hospital
Min. : 1.0 Min. :18.00 male :224 Min. :2020-01-10 15:52:20 Min. :2020-01-23 09:09:23 FALSE:201 Min. : 0.0847
1st Qu.: 94.5 1st Qu.:46.00 female:151 1st Qu.:2020-02-01 19:27:40 1st Qu.:2020-02-11 13:39:21 TRUE :174 1st Qu.: 4.4845
Median :188.0 Median :62.00 NA Median :2020-02-04 22:30:34 Median :2020-02-16 17:40:07 NA Median : 9.5942
Mean :188.0 Mean :58.83 NA Mean :2020-02-04 20:13:51 Mean :2020-02-15 16:42:59 NA Mean :10.8536
3rd Qu.:281.5 3rd Qu.:70.00 NA 3rd Qu.:2020-02-10 04:11:10 3rd Qu.:2020-02-19 11:47:14 NA 3rd Qu.:15.6876
Max. :375.0 Max. :95.00 NA Max. :2020-02-17 21:30:07 Max. :2020-03-04 16:21:51 NA Max. :35.1708

Dane pokazują, że choroba jest bardziej śmiertelna dla mężczyzn. Ponadto dane obejmują znacznie więcej mężczyzn niż kobiet, co może oznaczać, że kobiety są bardziej odporne na chorobę lub mają często na tyle słabe objawy, że nie trafiają w ogóle do szpitali i są rzadziej badane.

Analiza wartości atrybutów

Podsumowanie statystyk wszystkich dostępnych atrybutów:

patient_id re_date age gender admission_time discharge_time death hypersensitive_cardiac_troponin_i hemoglobin serum_chloride prothrombin_time procalcitonin eosinophils interleukin_2_receptor alkaline_phosphatase albumin basophil interleukin_10 total_bilirubin platelet_count monocytes antithrombin interleukin_8 indirect_bilirubin red_blood_cell_distribution_width neutrophils total_protein quantification_of_treponema_pallidum_antibodies prothrombin_activity h_bs_ag mean_corpuscular_volume hematocrit white_blood_cell_count tumor_necrosis_factor_u_03b1 mean_corpuscular_hemoglobin_concentration fibrinogen interleukin_1ss urea lymphocyte_count ph_value red_blood_cell_count eosinophil_count corrected_calcium serum_potassium glucose neutrophils_count direct_bilirubin mean_platelet_volume ferritin rbc_distribution_width_sd thrombin_time x_lymphocyte hcv_antibody_quantification d_d_dimer total_cholesterol aspartate_aminotransferase uric_acid hco3 calcium amino_terminal_brain_natriuretic_peptide_precursor_nt_pro_bnp lactate_dehydrogenase platelet_large_cell_ratio interleukin_6 fibrin_degradation_products monocytes_count plt_distribution_width globulin x_u_03b3_glutamyl_transpeptidase international_standard_ratio basophil_count x2019_n_co_v_nucleic_acid_detection mean_corpuscular_hemoglobin activation_of_partial_thromboplastin_time high_sensitivity_c_reactive_protein hiv_antibody_quantification serum_sodium thrombocytocrit esr glutamic_pyruvic_transaminase e_gfr creatinine days_in_hospital
Min. : 1.0 Min. :2020-01-10 19:45:00 Min. :18.00 male :3730 Min. :2020-01-10 15:52:20 Min. :2020-01-23 09:09:23 FALSE:3215 Min. : 1.9 Min. : 6.4 Min. : 71.5 Min. : 11.5 Min. : 0.020 Min. :0.0000 Min. : 61.0 Min. : 17.0 Min. :13.60 Min. :0.0000 Min. : 5.00 Min. : 2.50 Min. : -1.0 Min. : 0.300 Min. : 20.00 Min. : 5.00 Min. : 0.100 Min. :10.60 Min. : 1.70 Min. :31.80 Min. : 0.0200 Min. : 6.00 Min. : 0.000 Min. : 61.60 Min. :14.50 Min. : 0.130 Min. : 4.00 Min. :286.0 Min. : 0.500 Min. : 5.000 Min. : 0.800 Min. : 0.000 Min. :5.000 Min. : 0.100 Min. :0.00000 Min. :1.650 Min. : 2.760 Min. : 1.000 Min. : 0.060 Min. : 1.600 Min. : 8.50 Min. : 17.8 Min. : 31.30 Min. : 13.00 Min. : 0.00 Min. :0.0200 Min. : 0.210 Min. :0.100 Min. : 6.00 Min. : 43.0 Min. : 6.30 Min. :1.170 Min. : 5 Min. : 110.0 Min. :11.20 Min. : 1.50 Min. : 4.00 Min. : 0.0100 Min. : 8.00 Min. :10.1 Min. : 3.00 Min. : 0.840 Min. :0.00000 Min. :-1 Min. :20.40 Min. : 21.80 Min. : 0.10 Min. :0.05000 Min. :115.4 Min. :0.010 Min. : 1.00 Min. : 5.00 Min. : 2.00 Min. : 11.0 Min. : 0.0847
1st Qu.: 92.0 1st Qu.:2020-02-04 13:46:00 1st Qu.:47.00 female:2390 1st Qu.:2020-02-01 00:06:16 1st Qu.:2020-02-13 19:06:26 TRUE :2905 1st Qu.: 3.5 1st Qu.:113.0 1st Qu.: 99.4 1st Qu.: 13.5 1st Qu.: 0.040 1st Qu.:0.0000 1st Qu.: 577.0 1st Qu.: 54.0 1st Qu.:27.70 1st Qu.:0.1000 1st Qu.: 5.00 1st Qu.: 7.40 1st Qu.:107.0 1st Qu.: 2.800 1st Qu.: 83.00 1st Qu.: 12.30 1st Qu.: 3.800 1st Qu.:12.00 1st Qu.:64.20 1st Qu.:61.10 1st Qu.: 0.0400 1st Qu.: 67.00 1st Qu.: 0.000 1st Qu.: 87.00 1st Qu.:33.30 1st Qu.: 5.258 1st Qu.: 7.60 1st Qu.:332.0 1st Qu.: 3.260 1st Qu.: 5.000 1st Qu.: 3.900 1st Qu.: 0.470 1st Qu.:6.000 1st Qu.: 3.640 1st Qu.:0.00000 1st Qu.:2.270 1st Qu.: 3.990 1st Qu.: 5.360 1st Qu.: 3.330 1st Qu.: 3.200 1st Qu.:10.20 1st Qu.: 595.8 1st Qu.: 38.70 1st Qu.: 15.80 1st Qu.: 3.70 1st Qu.:0.0500 1st Qu.: 0.510 1st Qu.:3.050 1st Qu.: 19.00 1st Qu.: 184.0 1st Qu.:21.10 1st Qu.:1.990 1st Qu.: 100 1st Qu.: 211.0 1st Qu.:26.10 1st Qu.: 12.59 1st Qu.: 5.10 1st Qu.: 0.2900 1st Qu.:11.20 1st Qu.:29.6 1st Qu.: 22.00 1st Qu.: 1.020 1st Qu.:0.01000 1st Qu.:-1 1st Qu.:29.70 1st Qu.: 35.90 1st Qu.: 3.60 1st Qu.:0.08000 1st Qu.:138.0 1st Qu.:0.140 1st Qu.: 17.00 1st Qu.: 16.00 1st Qu.: 67.50 1st Qu.: 58.0 1st Qu.: 8.2890
Median :185.0 Median :2020-02-09 12:50:00 Median :62.00 NA Median :2020-02-04 15:53:12 Median :2020-02-17 21:50:30 NA Median : 19.9 Median :125.0 Median :102.3 Median : 14.4 Median : 0.120 Median :0.2000 Median : 977.5 Median : 70.0 Median :32.40 Median :0.2000 Median : 12.60 Median : 10.60 Median :187.0 Median : 5.700 Median : 86.33 Median : 35.10 Median : 5.500 Median :12.70 Median :81.50 Median :66.00 Median : 0.0600 Median : 85.00 Median : 0.010 Median : 90.40 Median :36.63 Median : 8.105 Median : 11.45 Median :342.0 Median : 4.295 Median : 5.000 Median : 5.600 Median : 0.850 Median :6.347 Median : 4.150 Median :0.01000 Median :2.370 Median : 4.450 Median : 7.115 Median : 6.050 Median : 4.800 Median :10.90 Median : 1425.3 Median : 41.10 Median : 17.00 Median :11.85 Median :0.0700 Median : 1.710 Median :3.660 Median : 26.00 Median : 245.0 Median :23.80 Median :2.100 Median : 810 Median : 322.0 Median :31.80 Median : 62.06 Median : 57.14 Median : 0.4200 Median :12.70 Median :32.7 Median : 34.00 Median : 1.110 Median :0.01000 Median :-1 Median :30.90 Median : 40.30 Median : 44.20 Median :0.09000 Median :140.6 Median :0.210 Median : 35.00 Median : 25.00 Median : 89.60 Median : 75.0 Median :12.4998
Mean :184.8 Mean :2020-02-08 07:09:59 Mean :59.44 NA Mean :2020-02-03 18:57:56 Mean :2020-02-16 21:40:09 NA Mean : 991.8 Mean :124.4 Mean :103.1 Mean : 16.0 Mean : 1.079 Mean :0.7661 Mean : 977.5 Mean : 83.2 Mean :32.21 Mean :0.2279 Mean : 16.82 Mean : 16.29 Mean :190.2 Mean : 6.125 Mean : 86.33 Mean : 95.97 Mean : 6.793 Mean :13.13 Mean :77.25 Mean :65.44 Mean : 0.1673 Mean : 81.53 Mean : 6.021 Mean : 90.53 Mean :36.63 Mean : 15.217 Mean : 12.26 Mean :342.2 Mean : 4.295 Mean : 6.447 Mean : 9.086 Mean : 1.033 Mean :6.347 Mean : 9.288 Mean :0.04669 Mean :2.357 Mean : 4.503 Mean : 8.880 Mean : 8.126 Mean : 9.522 Mean :11.02 Mean : 1537.3 Mean : 42.62 Mean : 17.82 Mean :15.63 Mean :0.1051 Mean : 6.973 Mean :3.722 Mean : 47.93 Mean : 276.1 Mean :23.39 Mean :2.091 Mean : 2999 Mean : 466.3 Mean :32.64 Mean : 125.69 Mean : 57.14 Mean : 0.5139 Mean :13.35 Mean :33.2 Mean : 54.36 Mean : 1.272 Mean :0.01884 Mean :-1 Mean :30.99 Mean : 40.76 Mean : 71.17 Mean :0.09534 Mean :141.5 Mean :0.211 Mean : 35.11 Mean : 38.91 Mean : 83.31 Mean : 104.9 Mean :13.1127
3rd Qu.:270.0 3rd Qu.:2020-02-13 10:36:00 3rd Qu.:71.00 NA 3rd Qu.:2020-02-09 02:06:58 3rd Qu.:2020-02-19 13:30:26 NA 3rd Qu.: 968.2 3rd Qu.:137.0 3rd Qu.:105.5 3rd Qu.: 16.2 3rd Qu.: 0.630 3rd Qu.:1.1000 3rd Qu.: 996.0 3rd Qu.: 96.0 3rd Qu.:37.00 3rd Qu.:0.3000 3rd Qu.: 16.82 3rd Qu.: 16.40 3rd Qu.:257.0 3rd Qu.: 8.700 3rd Qu.: 91.00 3rd Qu.: 95.97 3rd Qu.: 7.900 3rd Qu.:13.70 3rd Qu.:92.60 3rd Qu.:70.50 3rd Qu.: 0.1100 3rd Qu.: 97.00 3rd Qu.: 0.020 3rd Qu.: 94.20 3rd Qu.:39.90 3rd Qu.: 13.325 3rd Qu.: 12.26 3rd Qu.:349.0 3rd Qu.: 5.190 3rd Qu.: 6.447 3rd Qu.:10.760 3rd Qu.: 1.460 3rd Qu.:6.500 3rd Qu.: 4.700 3rd Qu.:0.07000 3rd Qu.:2.450 3rd Qu.: 4.840 3rd Qu.:10.280 3rd Qu.:11.260 3rd Qu.: 8.000 3rd Qu.:11.60 3rd Qu.: 1537.3 3rd Qu.: 44.70 3rd Qu.: 17.90 3rd Qu.:25.60 3rd Qu.:0.1051 3rd Qu.:15.840 3rd Qu.:4.310 3rd Qu.: 41.00 3rd Qu.: 332.0 3rd Qu.:26.20 3rd Qu.:2.200 3rd Qu.: 2999 3rd Qu.: 597.0 3rd Qu.:37.80 3rd Qu.: 125.69 3rd Qu.: 57.14 3rd Qu.: 0.6025 3rd Qu.:14.70 3rd Qu.:36.5 3rd Qu.: 58.00 3rd Qu.: 1.290 3rd Qu.:0.02000 3rd Qu.:-1 3rd Qu.:32.20 3rd Qu.: 42.90 3rd Qu.:113.10 3rd Qu.:0.10000 3rd Qu.:143.2 3rd Qu.:0.270 3rd Qu.: 43.00 3rd Qu.: 41.00 3rd Qu.:105.00 3rd Qu.: 97.0 3rd Qu.:17.6000
Max. :375.0 Max. :2020-02-18 17:49:00 Max. :95.00 NA Max. :2020-02-17 21:30:07 Max. :2020-03-04 16:21:51 NA Max. :50000.0 Max. :178.0 Max. :140.4 Max. :120.0 Max. :57.170 Max. :8.6000 Max. :7500.0 Max. :620.0 Max. :48.60 Max. :1.7000 Max. :1000.00 Max. :505.70 Max. :558.0 Max. :53.000 Max. :136.00 Max. :6795.00 Max. :145.100 Max. :27.10 Max. :98.90 Max. :88.70 Max. :11.9500 Max. :142.00 Max. :250.000 Max. :118.90 Max. :52.30 Max. :1726.600 Max. :168.00 Max. :514.0 Max. :10.780 Max. :88.500 Max. :68.400 Max. :52.420 Max. :7.565 Max. :749.500 Max. :0.49000 Max. :2.790 Max. :12.800 Max. :43.010 Max. :33.880 Max. :360.600 Max. :15.00 Max. :50000.0 Max. :113.30 Max. :161.90 Max. :60.00 Max. :2.0900 Max. :60.000 Max. :7.300 Max. :1858.00 Max. :1176.0 Max. :36.30 Max. :2.620 Max. :70000 Max. :1867.0 Max. :62.20 Max. :5000.00 Max. :190.80 Max. :39.9200 Max. :25.30 Max. :50.6 Max. :732.00 Max. :13.480 Max. :0.12000 Max. :-1 Max. :50.80 Max. :144.00 Max. :320.00 Max. :0.27000 Max. :179.7 Max. :0.510 Max. :110.00 Max. :1600.00 Max. :224.00 Max. :1497.0 Max. :35.1708

Niektóre brakujące dane zostały zastąpione średnią, a brakujące re_date zostały zastąpione admission_time.

Korelacja między atrybutami

Wykres przedstawia korelację biomerkerów krwi ze śmiertelnością. Wybrane zostay tylko atrybuty o bezwzględnej wartości korelacji większej niż 0,6. Dodatnia korelacja ze śmiertelnością oznacza, że osoba prawdopodobnie umrze, ujemna korelacja oznacza, że prawdopodobnie przeżyje.

Wykres śmiertelności w czasie

Wykres pokazuje liczbe osób, które wyzdrowiały lub zmarły z powodu COVID-19.

Klasyfikacja

Podczas uczenia klasyfikatora dane podzielono na zbiór uczący (75% danych) i zestaw testowy (25% danych). Wybrany algorytm to Random Forest. Dane zawierają najważniejsze biomarkery: prothrombin_time, albumin, platelet_count, monocytes, neutrophils, prothrombin_activity, urea, lymphocyte_count, neutrophils_count, x_lymphocyte, d_d_dimer, calcium, lactate_dehydrogenase, international_standard_ratio oraz high_sensitivity_c_reactive_protein.

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction FALSE TRUE
##      FALSE   792    6
##      TRUE     11  720
##                                           
##                Accuracy : 0.9889          
##                  95% CI : (0.9823, 0.9935)
##     No Information Rate : 0.5252          
##     P-Value [Acc > NIR] : <2e-16          
##                                           
##                   Kappa : 0.9777          
##                                           
##  Mcnemar's Test P-Value : 0.332           
##                                           
##             Sensitivity : 0.9863          
##             Specificity : 0.9917          
##          Pos Pred Value : 0.9925          
##          Neg Pred Value : 0.9850          
##              Prevalence : 0.5252          
##          Detection Rate : 0.5180          
##    Detection Prevalence : 0.5219          
##       Balanced Accuracy : 0.9890          
##                                           
##        'Positive' Class : FALSE           
## 

Stworzony klasyfikator ma ponad 98% dokładności, co jest wynikiem dobrym. Niestety, istnieją przypadki zarówno false positive oraz true negative.